Mimicking Word Embeddings using Subword RNNs

这篇文章挺有意思的,在已有的word embeddings上学习一个从字符级别的序列上建立一个word embedding。模型使用的是RNN,双向的,输入是一个单词,输出就是一个向量。训练的时候输入都是已有word embeddinglexicon的单词,输入的ground truth是原始的向量。

这么做的目的是希望能够解决UNK(未登录词)的表示,它的理论假设是从字母组成语义是要遵循一系列的原则和规律,而这个双向RNN就是要学习这么一套原则,这样子见到UNK的时候就可以更好地猜出它的word embedding

这种方法对于中文来说显得特别有效(文中提及),这可能是因为中文的基本元素是字,但是字已经带有语义信息了,普通的相加符合中文的组合逻辑,而英语的基本单位是字母,字母本身没有语义。由此想到是不是在中文里character-based Languange Model效果更好。

分享到